智能论文笔记

A Lyapunov-Based Methodology for Constrained Optimization with Bandit Feedback

Semih Cayci , Yilin Zheng , Atilla Eryilmaz

分类：机器学习 | (统计)机器学习

2021-06-09

在包括在线广告，合同招聘和无线调度的各种应用中，控制器受到可用资源的严格预算约束的限制，这些资源由每个动作以随机量消耗，以及可能施加的随机可行性约束关于决策的重要运作限制。在这项工作中，我们考虑一个常规模型来解决这些问题，每个行动都返回一个随机奖励，成本和罚款从未知的联合分配返回，决策者旨在最大限度地提高预算约束下的总奖励$ B $在总成本和随机限制的时间平均罚款。我们提出了一种基于Lyapunov优化方法的新型低复杂性算法，命名为$ {\ tt lyon} $，并证明它以$ k $武器实现$ o（\ sqrt {kb \ log b}）$后悔和零约束 - 当$ B $足够大时。 $ {\ tt lyon} $的计算成本和尖锐性能界限表明，基于Lyapunov的算法设计方法可以有效地解决受约束的强盗优化问题。

translated by 谷歌翻译